DAY10-標題文字標籤爬取練習(上)

2023 iThome 鐵人賽

DAY 10

AI & Data

30天網路爬蟲學習系列第 10 篇

15th鐵人賽

yichenpan

2023-09-25 23:55:11

434 瀏覽

分享至

HTML網頁的標題文字是使用<hn>標籤來定義標題文字，從<h1>到<h6>有六種不同尺寸的標題文字，<h1>最重要，依序遞減至<h6>，而h旁邊的數字愈大則代表著字型尺寸愈小。
現在，我們就來使用Web Scraper爬取<h1><h2><h3>前三個標題文字標籤。

本次練習網址為：https://fchart.github.io/test/ex2_01.html

步驟1：實際瀏覽網頁內容

進入瀏覽器後，請在瀏覽器按F12或是Ctrl+Shfit+I開啟開發人員工具，停駐視窗選擇在下方，如下圖：

選擇元素(Elements)標籤，如下圖：

在<body>下可以依序看到<h1>~<h6>標籤，這些就是欲爬取目標資料所在的HTML標籤。

步驟2：在Web Scraper新增網站地圖專案

1.切換至開發人員工具後，點選Web Scraper標籤開啟Web Scraper，執行Create new sitemap → Create Sitemap命令新增網站地圖。

2.在Sitemap name輸入名稱，需使用小寫英文字母和底線，
在Strat URL欄輸入起始URL網址後按Create Sitemap紐新增網站地圖。

步驟3:建立網站爬取的CSS選擇器地圖

成功建立地圖專案後，就可開始新增CSS選擇器。

1.在下方Add new Selector紐新增目前 _root節點下的CSS選擇器節點。

2.進入後在Id欄輸入名稱h1_tag，Type欄選擇節點類型，Text節點是用來擷取標籤的文字內容。

3.在Web Scraper內建CSS選擇器工具可以從網頁選取文字內容後，自動取得資料的CSS字串，按Select按鈕，可移動游標選取欲選取的目標資料。

4.當游標移至目標資料後，按滑鼠左鍵，表示選取此元素，同時在下方浮動工具列的前方欄未顯示取得的CSS選擇器h1，如下圖：

5.選擇完成後，點選Done Selecting完成選擇。可在下方欄位填入選擇元素所取得的CSS選擇器字串，點選Element preview預覽選擇元素，如下圖：

6.點選Data preview可以預覽CSS選擇器擷取的資料，上方是節點名稱，下方是標籤內容。

7.按Save selector儲存選擇器節點，可以在_root跟節點下新增名為h1_tag的選擇器節點。

重複按Add new selector依序新增h2_tag和h3_tag兩個CSS選擇器節點，建立完成後，可以在_root下看到三個Text節點的CSS選擇器，如下圖：

今天的分享就先到這邊啦~後續的部份我們明天再繼續說，明天見!

參考書籍資料：文科生也可以輕鬆學習網路爬蟲
資料爬取練習來源同書籍

DAY9-安裝Web Scraper擴充功能

DAY11-標題文字標籤爬取練習(下)

系列文

30天網路爬蟲學習共 30 篇

RSS系列文訂閱系列文

0 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19860 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙

30天網路爬蟲學習系列 第 10 篇